比Transformer更好,无Attention、MLPs的BERT、GPT反而更强了
孤曼来了网2024-11-06 16:42:07【探索】4人已围观
简介本文探究了 Monarch Mixer (M2) ,这是一种在序列长度以及模子维度上都是次二次的新架构,而且在今世减速器上具备很高的硬件功能。从 BERT、GPT 以及 Flan-T5 等语言模子到
本文探究了 Monarch Mixer (M2) ,更好更强这是更好更强一种在序列长度以及模子维度上都是次二次的新架构 ,而且在今世减速器上具备很高的更好更强硬件功能